06_Nonparametric methods

Author

Yeong Chan Lee

Published

April 7, 2023

6-1. Normality tests

데이터의 정규성을 검정하는 normality를 수행해보겠습니다.

먼저 Shapiro-wilk test입니다.

\[ \text{H}_0 : \text{The data are from a normally distributed population} \\ \quad \text{H}_1 : \text{The data are not from a normally distributed population} \]

p-value가 0.05를 넘으면 귀무가설을 기각하지 않고 데이터가 정규분포를 따른다고 판단합니다.

set.seed(1234)
my_data <- rt(1000, 5)
shapiro.test(my_data)

    Shapiro-Wilk normality test

data:  my_data
W = 0.98561, p-value = 2.358e-08

다양한 분포로부터 random하게 값을 추출해서 실험해보세요. shapiro.test()함수는 최대 5000개의 데이터만 허용합니다. 그 이상의 데이터를 검정하기 위해선 Kolmogorov-Smirnov test를 활용합니다. my_data가 표준정규분포를 따르는지 검정합니다.

\[ \text{H}_0 : \text{The two samples are drawn from the same distribution} \\ \quad \text{H}_1 : \text{The two samples are drawn from the same distribution} \]

ks.test(my_data, y="pnorm", mean=0, sd=1)

    Asymptotic one-sample Kolmogorov-Smirnov test

data:  my_data
D = 0.032448, p-value = 0.2431
alternative hypothesis: two-sided

다음은 my_data가 자유도 5를 가지는 t분포를 따르는지 검정합니다.

ks.test(my_data, y="pt", df=5)

    Asymptotic one-sample Kolmogorov-Smirnov test

data:  my_data
D = 0.024046, p-value = 0.6097
alternative hypothesis: two-sided

이번엔 새로운 표본을 뽑아서 my_data가 따르는 분포와 동일한지 검정해봅니다.

set.seed(12345)
my_data2 <- rchisq(10000, df=1)
ks.test(my_data, my_data2)

    Asymptotic two-sample Kolmogorov-Smirnov test

data:  my_data and my_data2
D = 0.5, p-value < 2.2e-16
alternative hypothesis: two-sided

6-2. Parametric and nonparametric methods

모수적 방법과 비모수적 방법을 비교하기 위해 분포에서 랜덤값을 추출하고 t.test()와 wilcox.test() 함수를 통해 비교해보겠습니다.

set.seed(1234)
#소표본
x1 <- rnorm(12, mean=0, sd=1)
x2 <- rnorm(8, mean=1, sd=1)

t.test(x1, x2)

    Welch Two Sample t-test

data:  x1 and x2
t = -3.0591, df = 12.801, p-value = 0.009281
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -2.5251332 -0.4328603
sample estimates:
 mean of x  mean of y 
-0.4422628  1.0367340 
wilcox.test(x1, x2)

    Wilcoxon rank sum exact test

data:  x1 and x2
W = 16, p-value = 0.0124
alternative hypothesis: true location shift is not equal to 0

이젠 실제 데이터에 적용해보면서 동일한 가설에 대한 모수적 방법과 비모수적 방법에 대해 비교해보겠습니다.

library(medicaldata)
library(dplyr)

Attaching package: 'dplyr'
The following objects are masked from 'package:stats':

    filter, lag
The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union
polyps
   participant_id    sex age baseline treatment number3m number12m
1             001 female  17        7  sulindac        6        NA
2             002 female  20       77   placebo       67        63
3             003   male  16        7  sulindac        4         2
4             004 female  18        5   placebo        5        28
5             005   male  22       23  sulindac       16        17
6             006 female  13       35   placebo       31        61
7             007 female  23       11  sulindac        6         1
8             008   male  34       12   placebo       20         7
9             009   male  50        7   placebo        7        15
10            010   male  19      318   placebo      347        44
11            011   male  17      160  sulindac      142        25
12            012 female  23        8  sulindac        1         3
13            013   male  22       20   placebo       16        28
14            014   male  30       11   placebo       20        10
15            015   male  27       24   placebo       26        40
16            016   male  23       34  sulindac       27        33
17            017 female  22       54   placebo       45        46
18            018   male  13       16  sulindac       10        NA
19            019   male  34       30   placebo       30        50
20            020 female  23       10  sulindac        6         3
21            021 female  22       20  sulindac        5         1
22            022   male  42       12  sulindac        8         4

placebo그룹과 sulindac그룹의 baseline때의 용종의 개수의 차이가 있습니까?

t.test(filter(polyps, treatment=="placebo")$baseline,
       filter(polyps, treatment=="sulindac")$baseline)

    Welch Two Sample t-test

data:  filter(polyps, treatment == "placebo")$baseline and filter(polyps, treatment == "sulindac")$baseline
t = 0.85384, df = 14.6, p-value = 0.407
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -38.92272  90.74090
sample estimates:
mean of x mean of y 
 53.90909  28.00000 

Wilcoxon rank sum test를 해봅시다.

wilcox.test(filter(polyps, treatment=="placebo")$baseline,
            filter(polyps, treatment=="sulindac")$baseline)
Warning in wilcox.test.default(filter(polyps, treatment == "placebo")$baseline,
: cannot compute exact p-value with ties

    Wilcoxon rank sum test with continuity correction

data:  filter(polyps, treatment == "placebo")$baseline and filter(polyps, treatment == "sulindac")$baseline
W = 77.5, p-value = 0.2776
alternative hypothesis: true location shift is not equal to 0

Percent change 비교를 통해 sulindac의 사용이 용종의 개수를 줄여주는데 효과가 있는지 검정해봅시다.

polyps$PERCENT_CHANGE <- (polyps$number3m - polyps$baseline)/polyps$baseline


mean(filter(polyps, treatment == "placebo")$PERCENT_CHANGE)
[1] 0.09532312
mean(filter(polyps, treatment == "sulindac")$PERCENT_CHANGE)
[1] -0.398367
t.test(filter(polyps, treatment == "placebo")$PERCENT_CHANGE,
       filter(polyps, treatment == "sulindac")$PERCENT_CHANGE)

    Welch Two Sample t-test

data:  filter(polyps, treatment == "placebo")$PERCENT_CHANGE and filter(polyps, treatment == "sulindac")$PERCENT_CHANGE
t = 3.9955, df = 17.906, p-value = 0.000856
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.2339972 0.7533831
sample estimates:
  mean of x   mean of y 
 0.09532312 -0.39836705 
wilcox.test(filter(polyps, treatment == "placebo")$PERCENT_CHANGE,
       filter(polyps, treatment == "sulindac")$PERCENT_CHANGE)
Warning in wilcox.test.default(filter(polyps, treatment ==
"placebo")$PERCENT_CHANGE, : cannot compute exact p-value with ties

    Wilcoxon rank sum test with continuity correction

data:  filter(polyps, treatment == "placebo")$PERCENT_CHANGE and filter(polyps, treatment == "sulindac")$PERCENT_CHANGE
W = 115, p-value = 0.0003853
alternative hypothesis: true location shift is not equal to 0

두 테스트 모두 sulindac그룹과 placebo 그룹에 통계적으로 유의한 차이가 있는 것으로 나타납니다.

6-3. Permutation test

두 그룹간 비교 분석을 한다고 할 때, 두 그룹이 동일 모집단에서 추출된 표본이라고 가정하면 각 그룹의 대표값(예를 들어, 평균)의 통계적 차이는 없을 것입니다. 또한 두 그룹의 데이터를 무작위로 교환한 뒤 검정하더라도 통계적 차이가 없을 것입니다.

즉, 데이터를 무작위로 두 그룹 중 하나로 배정하고 그때의 통계량(예를 들어, 두 그룹의 평균 차이)을 계산하는 것을 n 번 수행하면 분포를 그릴 수 있습니다. 이것을 활용해 실제 데이터로부터 계산한 통계량이 순열 분포로부터 얼마나 극단적인지를 측정합니다. 이를 p-value로 나타낼 수 있고 유의수준보다 작으면 귀무가설을 기각할 수 있습니다.

Permutation test는 통계적 가설 검정에서 비모수적 방법으로 사용되며 원래 데이터의 순서를 임의로 변경하여 귀무가설 하에서 관측된 통계량의 분포를 추정합니다. 이 방법은 데이터의 실제 분포에 대한 가정이 필요하지 않으므로 모수적 방법의 가정이 만족되지 않는 상황에서도 사용할 수 있습니다.

# 예제 데이터 생성
set.seed(42)
group_x <- rnorm(10, mean = 10, sd = 2)
group_y <- rnorm(15, mean = 12, sd = 2)

# 귀무 가설 검정을 위한 순열 검정
perm_test <- function(x, y, n_permutations = 1000) {
  combined_data <- c(x, y)
  n_x <- length(x)
  n_y <- length(y)
  N <- n_x + n_y
  
  # 관측된 순위합 계산
  ranks <- rank(combined_data)
  R1_obs <- sum(ranks[1:n_x])
  
  # 순열 분포 생성
  R1_perm <- numeric(n_permutations)
  for (i in 1:n_permutations) {
    permuted_data <- sample(combined_data, N)
    ranks_perm <- rank(permuted_data)
    R1_perm[i] <- sum(ranks_perm[1:n_x])
  }
  
  # 양측 순열 검정의 p-value 계산
  p_value_perm <- 2 * min(
    mean(R1_perm <= R1_obs),
    mean(R1_perm >= R1_obs),
    0.5
  )
  
  return(p_value_perm)
}

# 순열 검정 실행
p_value <- perm_test(group_x, group_y, n_permutations = 1000)
print(paste("Permutation test p-value:", p_value))
[1] "Permutation test p-value: 0.334"
wilcox.test(group_x, group_y)

    Wilcoxon rank sum exact test

data:  group_x and group_y
W = 55, p-value = 0.2852
alternative hypothesis: true location shift is not equal to 0
t.test(group_x, group_y)

    Welch Two Sample t-test

data:  group_x and group_y
t = -0.84477, df = 22.389, p-value = 0.4072
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -2.764741  1.163145
sample estimates:
mean of x mean of y 
 11.09459  11.89539 
  1. 예제 데이터를 생성합니다.
  2. 순열 검정 함수(perm_test)를 정의합니다. 이 함수는 두 표본 x와 y를 입력으로 받고 n_permutations 횟수만큼 순열을 생성하여 검정을 수행합니다.
  3. 관측된 순위합 R1_obs를 계산합니다.
  4. 주어진 숫자만큼 순열을 생성하고 각 순열에 대한 순위합 R1_perm을 계산하여 순열 분포를 생성합니다.
  5. 순열 분포를 기반으로 양측 순열 검정의 p-value를 계산합니다.
  6. 최종적으로 순열 검정을 실행하고, 계산된 p-value를 출력합니다.